用于预测神经影像数据的深度学习算法在各种应用中显示出巨大的希望。先前的工作表明,利用数据的3D结构的深度学习模型可以在几个学习任务上胜过标准机器学习。但是,该领域的大多数先前研究都集中在成年人的神经影像学数据上。在一项大型纵向发展研究的青少年大脑和认知发展(ABCD)数据集中,我们检查了结构性MRI数据,以预测性别并确定与性别相关的大脑结构变化。结果表明,性别预测准确性异常高(> 97%),训练时期> 200,并且这种准确性随着年龄的增长而增加。大脑区域被确定为研究的任务中最歧视性的,包括主要的额叶区域和颞叶。当评估年龄增加两年的性别预测变化时,揭示了一组更广泛的视觉,扣带和孤立区域。我们的发现表明,即使在较小的年龄范围内,也显示出与性别相关的结构变化模式。这表明,通过查看这些变化与不同的行为和环境因素如何相关,可以研究青春期大脑如何变化。
translated by 谷歌翻译
深度学习的繁荣有助于场景文本检测的快速进步。在所有具有卷积网络的方法中,基于细分的方法在检测任意形状和极端纵横比的文本实例方面的优越性,引起了广泛的关注。但是,自下而上的方法仅限于其分割模型的性能。在本文中,我们提出了DPTNET(双路线变压器网络),这是一种简单而有效的体系结构,可为场景文本检测任务建模全局和本地信息。我们进一步提出了一种平行的设计,将卷积网络与强大的自我发场机制相结合,以在注意力路径和卷积路径之间提供互补的线索。此外,开发了两个路径上的双向相互作用模块,以提供通道和空间尺寸的互补线索。我们还通过向其添加额外的多头注意力层来升级集中操作。我们的DPTNET在MSRA-TD500数据集上实现了最先进的结果,并就检测准确性和速度提供了其他标准基准的竞争结果。
translated by 谷歌翻译
在本报告中,我们在CVPR 2022的Waymo Open数据集挑战中介绍了解决方案和流程预测挑战,该挑战在排行榜上排名第一。我们已经开发了一个新型的层次空间时间网络,该网络具有时空编码器,一个富含潜在变量的多尺度聚合器以及一个递归层次结构3D解码器。我们使用多种损失,包括局灶性损失和修改的流量损失来有效指导训练过程。我们的方法达到了一个占地0.8389的流动占用AUC,并且优于排行榜上所有其他团队。
translated by 谷歌翻译
之前在为人类运动提供合理的限制方面发挥着重要作用。以前的作品在不同情况下遵循各种范式的运动前锋,导致缺乏多功能性。在本文中,我们首先总结了先前运动的不可或缺的特性,并因此设计了一种学习多功能运动的框架,其模拟人类运动的固有概率分布。具体地,对于有效的先前表示学习,我们提出了全局方向归一化,以在原始运动数据空间中删除冗余环境信息。此外,将基于序列的基于段的频率引导引入编码阶段。然后,我们采用去噪培训方案以可学习的方式从输入运动数据中解散环境信息,以产生一致和可区分的表示。在三个不同的任务中嵌入我们的运动前嵌入我们的运动,我们进行了广泛的实验,并且定量和定性结果均表现出我们之前运动的多功能性和有效性。我们的型号和代码可在https://github.com/jchenxu/human-motion-porion -prior上获得。
translated by 谷歌翻译
现代视频文本检索框架基本上由三个部分组成:视频编码器,文本编码器和相似性。随着Visual和Textual表示学习的成功,在视频文本检索领域也采用了基于变压器的编码器和融合方法。在本报告中,我们呈现Clip2TV,旨在探索关键元素在基于变压器的方法中。为实现这一目标,我们首先重新审视一些对多模态学习的工作,然后将一些技术介绍到视频文本检索中,最后通过不同配置的大量实验进行评估。值得注意的是,Clip2TV在MSR-VTT数据集上实现了52.9 @ R1,优先表现出先前的SOTA结果为4.1%。
translated by 谷歌翻译
最近的深面幻觉方法显示出令人惊叹的超级分辨面部图像,甚至超过人类能力。但是,这些算法主要在非公共合成数据集上评估。因此,尚不清楚这些算法如何在公共面幻觉数据集上执行。同时,大多数现有数据集都不太考虑种族的分布,这使得在这些数据集上训练的面部幻觉方法偏向于某些特定种族。为了解决上述两个问题,在本文中,我们构建了一个公共种族多样化的面部数据集,Edface-Celeb-1M,并设计了面部幻觉的基准任务。我们的数据集包括170万张覆盖不同国家 /地区的照片,并具有平衡的种族组成。据我们所知,它是野外最大且公开的面部幻觉数据集。与该数据集相关联,本文还贡献了各种评估协议,并提供了全面的分析,以基于现有的最新方法。基准评估证明了最新算法的性能和局限性。
translated by 谷歌翻译
本文回顾了关于压缩视频质量增强质量的第一个NTIRE挑战,重点是拟议的方法和结果。在此挑战中,采用了新的大型不同视频(LDV)数据集。挑战有三个曲目。Track 1和2的目标是增强HEVC在固定QP上压缩的视频,而Track 3旨在增强X265压缩的视频,以固定的位速率压缩。此外,轨道1和3的质量提高了提高保真度(PSNR)的目标,以及提高感知质量的2个目标。这三个曲目完全吸引了482个注册。在测试阶段,分别提交了12个团队,8支球队和11支球队,分别提交了轨道1、2和3的最终结果。拟议的方法和解决方案衡量视频质量增强的最先进。挑战的首页:https://github.com/renyang-home/ntire21_venh
translated by 谷歌翻译
In this work, we explore a useful but often neglected methodology for robustness analysis of text generation evaluation metrics: stress tests with synthetic data. Basically, we design and synthesize a wide range of potential errors and check whether they result in a commensurate drop in the metric scores. We examine a range of recently proposed evaluation metrics based on pretrained language models, for the tasks of open-ended generation, translation, and summarization. Our experiments reveal interesting insensitivities, biases, or even loopholes in existing metrics. For example, we find that BERTScore ignores truncation errors in summarization, and MAUVE (built on top of GPT-2) is insensitive to errors at the beginning of generations. Further, we investigate the reasons behind these blind spots and suggest practical workarounds for a more reliable evaluation of text generation.
translated by 谷歌翻译
近年来,由于SR数据集的开发和相应的实际SR方法,真实的图像超分辨率(SR)已取得了令人鼓舞的结果。相比之下,真实视频SR领域落后,尤其是对于真实的原始视频。考虑到原始图像SR优于SRGB图像SR,我们构建了一个真实世界的原始视频SR(Real-Rawvsr)数据集,并提出了相应的SR方法。我们利用两个DSLR摄像机和一个梁切口来同时捕获具有2倍,3倍和4倍大型的高分辨率(LR)和高分辨率(HR)原始视频。我们的数据集中有450对视频对,场景从室内到室外各不相同,包括相机和对象运动在内的动作。据我们所知,这是第一个现实世界的RAW VSR数据集。由于原始视频的特征是拜耳模式,因此我们提出了一个两分支网络,该网络既涉及包装的RGGB序列和原始的拜耳模式序列,又涉及两个分支,并且两个分支相互互补。经过提出的共对象,相互作用,融合和重建模块后,我们生成了相应的HR SRGB序列。实验结果表明,所提出的方法优于原始或SRGB输入的基准实体和合成视频SR方法。我们的代码和数据集可在https://github.com/zmzhang1998/real-rawvsr上找到。
translated by 谷歌翻译
机器人的感知目前处于在有效的潜在空间中运行的现代方法与数学建立的经典方法之间的跨道路,并提供了可解释的,可信赖的结果。在本文中,我们引入了卷积的贝叶斯内核推理(Convbki)层,该层在可分离的卷积层中明确执行贝叶斯推断,以同时提高效率,同时保持可靠性。我们将层应用于3D语义映射的任务,在该任务中,我们可以实时学习激光雷达传感器信息的语义几何概率分布。我们根据KITTI数据集的最新语义映射算法评估我们的网络,并通过类似的语义结果证明了延迟的提高。
translated by 谷歌翻译